ZVUKOVÁ VLNA
Mechanické vlnění hmoty v pásmu slyšitelných frekvencí, u lidí přibližně 16 až 20 000 Hz, s rostoucím věkem se horní hranice snižuje. Akustické vlnění na nižších frekvencích se označuje infrazvuk, na vyšších ultrazvuk. Různé druhy zvířat slyší nižší i vyšší frekvence. Ve vzduchu se zvuková vlna šíří rychlostí 340 ms–1 (při teplotě 15 °C a nulové nadmořské výšce), ve vokálním traktu počítáme s hodnotou 350 ms–1. V kapalinách a pevných látkách se zvuk šíří výrazně rychleji.
Časový průběh akustického tlaku v určitém bodu prostoru, tedy okamžité výchylky tlaku oproti jeho střední hodnotě (ve vzduchu atmosférický tlak) znázorňujeme oscilogramem. Jednoduchý čistý tón popisujeme matematicky jako periodický jev harmonického kmitání, kde hodnota v čase t (sec), tzv. okamžitá amplituda, x(t) = DC + A·cos(2·pi·f·t + phi). A nazýváme amplitudou (maximální výchylka vůči středu, souvisí s vnímanou hlasitosti), f udává frekvenci (počet kmitů za 1 sekundu = hertz /Hz/, souvisí s vnímanou výškou), phi je fáze (posun v čase vztažený k jedné periodě rovné 2·pi, souvisí s časovým posunem vnímaným při prostorovém zvuku), DC označuje stejnosměrnou složku (z anglického direct current), tedy vertikální posun signálu upravující jeho střední hodnotu (DC složka zvuku není slyšet a je škodlivá jak z hlediska elektroniky, tak z hlediska některých algoritmů zpracovávajících akustické signály, a proto bývá často automaticky odstraňována). Z důvodu velkého dynamického rozpětí se hodnoty amplitudy často převádějí na logaritmickou jednotku hladina tlaku zvuku (sound pressure level) v decibelech dB(SPL) vztažených k normované hodnotě p0 = 20 mikroPa, Lp = 20log10(p/p0), kde p je amplituda tónu.
Subjektivní vnímání tónu je individuální a sestává jak z lineárních jevů (výšku vnímáme různě s měnící se hlasitostí a naopak hlasitost objektivně stejné amplitudy je při různých výškách vnímána odlišně), tak i z nelineárních vlastností kochley v lidském uchu (saturace, zázněje dvou blízkých tónů, maskování tónu šumem), zřejmá je i časová proměnlivost (hlasitý zvuk způsobí, že následně slyšíme určitou dobu vše slaběji, naopak při delším tichu se naopak adaptujeme a vnímáme hlasitěji). Jevy vnímání výšky částečně zohledňují psychoakustické jednotky mel (✍Stevens & Volkmann ad., 1937), bark (✍Zwicker, 1961) a erb (✍Moore & Glasberg, 1983), vnímání hlasitosti jednotky sone (✍Stevens & Volkmann ad., 1937), phon (ISO 226:2003) či dB(A) (✍Aarts, 1992). Stupnice těchto jednotek jsou často odvozeny experimentálně a jen pro čisté tóny, nezohledňují složitější situace, jejichž popis je stále záležitostí výzkumu.
Skládáním více čistých tónů vzniká složený zvuk. Pokud jsou frekvence vyšších tónů celočíselným násobkem nejnižší frekvence, hovoříme o složeném tónu, nejnižší frekvenci označujeme základní frekvencí F0 a jednotlivé složky nazýváme harmonickými, mluvíme tak o tzv. vyšších harmonických. V obecném případě může složka se základní frekvencí i některé vyšší harmonické chybět (např. z důvodu omezeného přenosového pásma telefonního kanálu či reproduktorů), pro pozorovanou periodu v oscilogramu a i vnímanou základní frekvenci složeného tónu je však podstatná vzdálenost jednotlivých harmonických složek, která je stále rovna F0. Amplitudy jednotlivých harmonických mají vliv na vnímanou barvu tónu. Pro potřeby srovnání amplitud čistých tónů a složených zvuků, a tedy i výpočtu hladiny tlaku zvuku dB(SPL), se počítá tzv. efektivní amplituda značená RMS (z anglického root-mean-square) počítaná jako odmocnina z průměru druhých mocnin okamžitých amplitud zvuku v časovém průběhu. Speciálními případy jsou inharmonické tóny (čisté tóny složeného zvuku nejsou přesně celočíselným násobkem F0, do určité míry posluchači kladně hodnoceny jako žádoucí, např. tón klavíru), kvaziperiodicita (jednotlivé periody nejsou zcela matematicky totožné, způsobeno např. klesající amplitudou i kolísáním F0 a drobnými výchylkami poměrů amplitud jednotlivých harmonických, pozorované jak u hudebních nástrojů, tak např. u vokálů v řeči) a také zvuky celkově nestacionární, tedy v čase zcela měnící své vlastnosti.
Šumem nazýváme náhodné výchylky akustického tlaku vnímané jako syčení. Bílý šum je označení pro zcela náhodný vývoj hodnot akustického tlaku v čase, kde jednotlivé hodnoty spolu nemají žádnou souvislost, předchozí hodnoty žádným způsobem neovlivňují hodnoty nové (jsou bez vazby, tzv. nekorelované). Matematicky lze bílý šum modelovat generátorem náhodných čísel např. s normálním či rovnoměrným statistickým rozdělením hustoty pravděpodobnosti hodnot. U šumů nehovoříme z důvodu náhodného charakteru o amplitudě, používáme průměrný výkon (který je v případě nulové střední hodnoty roven rozptylu signálu). Bílý šum vykazuje z dlouhodobého hlediska rovnoměrné zastoupení amplitud všech frekvenčních složek, které však subjektivně vnímáme nerovnoměrně. Frekvenční filtrací (která zavádí vazbu mezi hodnotami v čase, ale zachovává náhodnost) je možné zastoupení frekvenčních složek měnit, obdržíme tzv. barevné šumy, např. šedivý šum, u kterého všechny frekvenční složky působí percepčně stejně nahlas.
Obecný složený zvuk může obecně obsahovat zároveň mnoho tónových složek (např. hudební akord) včetně šumových složek (např. znělé frikativy v řeči n. výsledný zvuk hudebního tělesa), jeho vlastnosti (složení) se zároveň v čase mění (nestacionarita).
Spojitý průběh akustických signálů je při digitálním záznamu vzorkován tzv. vzorkovací frekvencí, udávající počet vzorků za sekundu (signál již není v čase spojitý, ale diskrétní), a hodnoty těchto vzorků jsou zároveň tzv. kvantizovány, neboli zaokrouhlovány na nejbližší kvantizační úroveň, jejichž počet je dán bitovou hloubkou. Vzorkovací frekvence určuje maximální frekvenci složek, které v signálu zůstanou zachovány; tzv. vzorkovací teorém udává, že vzorkovací frekvence musí být vyšší než dvojnásobek maximální frekvence, která je v signálu obsažena. Bitová hloubka souvisí s úrovní šumu, který díky zaokrouhlování během kvantizace vzniká. Příkladem je hudební CD se vzorkovací frekvencí 44,1 kHz (umožňující uložení celého slyšitelného rozsahu frekvencí) a bitovou hloubkou 16 bit (odpovídající maximálnímu odstupu signálu od šumu 96 dB). Během digitálního záznamu zvuku většinou není prováděna kalibrace úrovní, takovéto digitální záznamy postrádají z hlediska amplitudy vztah k fyzikálním jednotkám. Pro vyjádření úrovně amplitudy se používají dB(FS) (z anglického decibels relative to full scale), často však značené pouze dB, kde 0 dB(FS) odpovídá jednoduchému sinusovému tónu s amplitudou maximálního možného rozsahu.
Pro názorné zobrazení zvukových signálů používáme spektrální oblast, reflektující frekvenční rozklad probíhající uvnitř ucha, a tedy vnímání zvuku. Dle charakteru signálu existuje několik typů výpočtů a výsledných spekter, společnou myšlenkou je rozklad signálů na součet dílčích harmonických složek s různými frekvencemi, amplitudami a fázemi, které graficky znázorňujeme formou tzv. ↗zvukového spektra, nejčastěji rozděleného na spektrum amplitudové a fázové.
Ke spojitým periodickým signálům přísluší Fourierovy řady, které z historických důvodů existují v několika tvarech, výstupem je vždy diskrétní spektrum. Složkový tvar obsahuje funkce sinus i kosinus s amplitudami, ale vždy s nulovou fází. Amplitudo-fázový tvar má základní funkci buď kosinus, n. sinus, která obsahuje i fázi. Nejmodernější komplexní tvar má základní funkci komplexní exponenciálu a komplexní koeficienty v sobě ukrývají jak amplitudu, tak fázi. Komplexní tvar používá i záporných frekvencí a umožňuje tak popisovat i signály s komplexními hodnotami, jedná se tudíž o univerzální vzorec, a proto je v současnosti nejčastěji používaný. Důsledkem záporných frekvencí je tzv. oboustranné spektrum (na rozdíl od předchozích jednostranných spekter s nezápornými frekvencemi), pro reálné signály, jako je zvuk, je toto spektrum zrcadlově symetrické podle počátku a programy z něj zobrazují jen pravou polovinu nezáporných frekvencí. Spojité neperiodické signály převádí Fourierova transformace, vycházející z komplexního tvaru Fourierovy řady (odvození matematickým roztažením periody na nekonečnou délku, čímž se vzdálenost mezi čarami ve spektru limitně blíží k nule), spektrum je spojité a oboustranné.
Pro diskrétní periodické signály slouží diskrétní Fourierova transformace DFT (Discrete Fourier Transform) (✍Oppenheim & Schafer, 2009), jež je diskrétním ekvivalentem spojité Fourierovy komplexní řady, tudíž je spektrum diskrétní a obsahuje též záporné frekvence. Důsledkem vzorkování signálu je spektrum periodické s periodou vzorkovací frekvence. DFT je nejčastěji implementováno optimalizovaným algoritmem rychlé Fourierovy transformace FFT (Fast Fourier Transform). Diskrétní neperiodické signály lze transformovat metodou DTFT (Discrete-Time Fourier Transform), jejímž výstupem je periodické spojité spektrum. Z důvodu této spojitosti by bylo problematické uložit spektrum do paměti počítače, a proto se pro neperiodické signály omezeného trvání používá též DFT či FFT, čímž celý signál označujeme jako jednu periodu fiktivního signálu, který je DFT zpracován. Díky této periodizaci dochází k tzv. prosakování ve spektru (spectral leakage), kdy se jedna skutečná spektrální čára rozmazává do tzv. hlavního laloku s určitou šířkou a postranních laloků s určitým odstupem amplitudy od hlavního laloku. V případě více spektrálních komponent dochází v rámci spektrálního prosakování k součtu efektů jednotlivých složek. Pro potlačení tohoto nepříjemného jevu se používá před samotnou frekvenční transformací násobení signálu segmentačními okénky, která se liší vlastnostmi, volba je vždy kompromis mezi šířkou hlavního laloku (a tedy jemností spektrálního rozlišení) a mírou potlačení rušivých postranních laloků. Obecně však u DFT platí nepřímá úměra mezi trváním signálu a frekvenčním rozlišením (čím delší signál, tím je frekvenční rozlišení jemnější) (✍Sovka & Pollák, 2003).
Nestacionární diskrétní signály (jejich vlastnosti se mění v průběhu času, typickým příkladem je řeč) zobrazujeme pomocí tzv. ↗spektrogramu, který zobrazuje časový vývoj spektra, na x-ové ose je čas, na y-ové ose frekvence a amplituda je znázorněna barevnou škálou, např. odstíny šedé. Spektrogram vzniká segmentací signálu (rozdělení na krátké časové úseky násobené segmentačním okénkem), ze kterých je počítána DFT.
Signály šumového charakteru je nevhodné zobrazovat formou základního spektra, jelikož vykazuje náhodný charakter. Používá se výkonová spektrální hustota (PSD – power spectral density) (✍Uhlíř & Sovka, 2002) n. tzv. multitaper metoda (✍Percival & Walden, 1993), které průměrují mnoho realizací spektra, a zobrazují tak trend, jímž se signál řídí. Srovnání: jednotkový impuls má ploché spektrum přes všechny frekvence, náhodný bílý šum vykazuje náhodné spektrum, ale z hlediska dlouhodobého trendu obsahuje spektrum rovnoměrné zastoupení všech frekvenčních složek.
- Aarts, R. M. A Comparison of Some Loudness Measures for Loudspeaker Listening Test. Journal of the Audio Engineering Society 40, 1992, 142–146.
- Moore, B. C. J. & B. R. Glasberg. Suggested Formulae for Calculating Auditory-filter Bandwidths and Excitation Patterns. The Journal of the Acoustical Society of America 74, 1983, 750–753.
- Oppenheim, A. V. & R. W. Schafer. Discrete-Time Signal Processing, 2009.
- Percival, D. B. & A. T. Walden. Spectral Analysis for Physical Applications: Multitaper and Conventional Univariate Techniques, 1993.
- Sovka, P. & P. Pollák. Vybrané metody číslicového zpracování signálů, 2003.
- Stevens, S. S. A Scale for the Measurement of the Psychological Magnitude: Loudness. Psychological Review 43, 1936, 405–416.
- Stevens, S. S. & J. Volkmann ad. A Scale for the Measurement of the Psychological Magnitude Pitch. The Journal of the Acoustical Society of America 8, 1937, 185–190.
- Uhlíř, J. & P. Sovka. Číslicové zpracování signálů, 2002.
- Zwicker, E. Subdivision of the Audible Frequency Range into Critical Bands. The Journal of the Acoustical Society of America 33, 1961, 248.
URL: https://www.czechency.org/slovnik/ZVUKOVÁ VLNA (poslední přístup: 21. 11. 2024)
Další pojmy:
fonetikaCzechEncy – Nový encyklopedický slovník češtiny
Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020
Provozuje Centrum zpracování přirozeného jazyka